NVIDIA与4家存储厂商同台讨论:AI存储方案
当前,生成式AI领域的迅速发展对存储技术提出了严峻挑战。为了满足生成式AI在数据摄入、准备、训练和推理等各个阶段的需求,存储平台必须兼具大容量、高性能、高带宽和低延迟的特点。鉴于生成式AI模型能够处理文本、图像、音频、视频以及它们的组合等多种数据类型,存储平台还需能够灵活应对不同的文件系统、协议和网络,确保数据的高效和安全访问。
接下来,我们将深入探讨几个关键主题,包括混合存储、多云存储、数据迁移、安全性,以及存储对底层功能(如检查点和复制)的影响,并探讨如何有效扩展存储容量。
为此,我们特地组建了一个专家团队,他们来自NVIDIA的存储合作伙伴生态系统,将为你分享如何规避潜在问题,从而充分发挥存储技术在不同AI应用中的支持作用。
Rob Davis,存储技术副总裁,NVIDIA CJ Newburn,杰出工程师,NVIDIA Colleen Tartow,现场CTO兼战略负责人,VAST Data Sven Oehme,CTO,DDN Jason Duquette,首席存储架构师,Dell Pranoop Erasani,工程副总裁,NetApp
-----
Jeff Burnstein(NVIDIA)
在进入正题之前,我想和大家分享一个小故事。昨晚我在外面时,听人说起有个趣事,说有人买了一套有2.4万个GPU的大集群。但显然,他们在等待的过程中忽视了一个问题。当他们把集群搭建完毕,准备投入使用时,才猛然发现存储空间不足。这个故事告诉我们,选择合适的存储解决方案固然重要,但确保能有存储也同样重要。
接下来,请允许我介绍我们的主持人——Rob Davis,他是我们NVIDIA的存储技术副总裁。Rob在NVIDIA网络平台部门负责开发和推广基于NVIDIA BlueField DPU的存储产品,为数据中心和基于GPU的解决方案提供高速存储网络。Rob将携手来自NVIDIA存储合作伙伴生态系统的专家团队,分享如何避免潜在问题,充分利用存储技术为不同的AI应用和文件类型提供支持。
Rob Davis(NVIDIA)
今天,我们现场有幸邀请到了两位CTO,以及硬件存储系统架构师、软件存储系统架构师和IO与安全架构师等多位专家。
大家如果有什么疑问,尽管提出来。我相信我们这里的专家团队一定能为大家解答疑惑。如果专家们被你们的问题难住了,我也会尽力帮忙解答。
每位专家将展示一张幻灯片,用时2到3分钟,分享他们对AI存储所面临挑战的看法,希望能激发大家的思考。
Colleen Tartow(VAST Data)
大家好,我是来自VAST Data的Colleen。首先我得坦白一下,我不是一个存储专家,而是一个数据专家。这对我来说挺好的,因为我是在VAST Data工作,而不是VAST Storage。我思考很多关于数据流动的问题,关注数据如何从源头顺畅地传输到目的地,涉及从数据的摄入、处理和转换,到AI,再到最终的消费层面。虽然存储是其中至关重要的一环,但它并非唯一的关键点。
我可能会因为下面的话惹上一些争议,但在我看来,存储只是存放数据的地方,这些数据可能是结构化或非结构化数据,可能是元数据和索引,也可能是文件、块或对象。有意思的是,存储需要以不同的方式运作。它得与GPU、CPU协同工作,还要适应不同规模的需求。在AI领域,像层次化(tiering)这样的传统概念可能不再适用。我们不再想对数据进行层次化处理。
这张幻灯片展示了不同的数据规模,以及在数据流动管道的每个阶段对数据进行的不同操作。显然,存储中有一些关键因素我们需要重点关注。它得够快,但更重要的是,它得具备可扩展性,因为我们可以看到数据规模差异巨大。长期以来,我们一直在谈论结构化数据,但现在非结构化数据呈指数级增长,这还包括我们通过AI技术处理的数据。所有这些因素我们都得考虑进去。此外,存储系统还必须具备韧性,不能轻易宕机,必须得到妥善保护。这涉及到数据安全性、数据可审计性等许多其他专题,这些都非常重要。在每个阶段、每个规模,我们都需要考虑这些问题,同时还要追求成本效益。
我思考的问题是,我们如何将数据传输到需要的地方?如何尽可能减少数据副本的创建?每当创建数据副本时,就会降低系统的韧性,增加风险,增加延迟,这在AI时代是不可取的。多年来,我们的客户也发现了,特别是在进行AI和深度学习时,数据工程和建模一样具有挑战性。为建模和训练准备数据,然后将其输出并呈现在另一端,与建模本身一样困难。
这张幻灯片中间的框图是模型,但左右两侧的数据处理和流动过程同样具有挑战性。规模可能一样大。所以,当我思考存储时,这些都是我会考虑的问题。
Pranoop Erasani(NetApp)
我将分享我们在三个核心方面所遭遇的挑战。
首先,纵观整个AI数据生命周期,包括训练、推理和微调,我们会遇到极其多样化的性能需求。这通常是客户思考的首要问题。当客户考虑GPU时,他们会自然地关注性能。而在考虑性能时,客户会进一步思考,哪些地方适合应用高性能的存储应用场景,哪些地方则适合应用高容量且更具成本效益的存储方案。
第二个问题则是,在每个工作负载中,尤其是在一个完整的工作负载周期中,我们都会遇到需求的转变。一开始,你可能会看到需求从高容量逐渐转向高性能。这时,一个核心的问题会浮现在你的脑海中:我是否需要一个系统来管理这些不断变化的数据需求?是一个能够覆盖整个生命周期的单一系统,还是多个系统协作?从这个角度看,我认为AI/ML其实也有相似之处。在高速训练阶段,你希望在计算和存储能力上都具备显著优势。然而,当训练完成并将模型整合到开发流程中时,数据可能会在某些时刻变得不再那么关键,此时,节约成本就显得尤为重要。这个问题始终萦绕在客户的脑海中。
最后一点,当人们在考虑GPU并开始训练时,可能并不太注意这一点,但连续的数据可移动性是一个至关重要的方面。因为现在的数据不再局限于某个固定位置。它可能来自边缘,来自云端,也可能在进行本地训练或云训练时流动。但最终,当部署应用时,数据必须能够跟随应用程序到达其所在的位置。因此,将数据可移动性视为存储系统的一个关键属性是非常重要的。
Sven Oehme(DDN)
我想聊聊大规模训练这个话题。在实际的部署中,DDN产品在大规模部署中发挥着至关重要的作用。我们进行了一些研究,深入了解了客户在这些超大规模部署中的实际操作,以及他们面临的关键瓶颈。显然,随着作业规模的扩大,挑战也随之增多。问题不仅仅在于容量和已存储的数据量,更在于当我们在大量节点上扩展这些模型时,数据的移动,特别是等待数据的时间,成为了关键因素。
这意味着,如果无法将数据迅速传输到GPU中,系统的扩展性将受到限制。无论投入多少廉价资源,存储是进行计算的基础。不仅需要存储,还需要存储满足计算基础设施的性能需求,以便为其提供数据,而不是让计算基础设施闲置。
我们还经常看到另一个现象,那就是人们对AI和ML中实际需要读取和写入的数据量存在误解或描述不准确。虽然不同阶段的性能需求有所不同,对IO的需求可能或大或小。但很明显的是,我们与NVIDIA合作进行了一项研究,其中一些数据是从NVIDIA系统中收集的。我们观察到,在包含2.3万个作业的大规模集群中,系统对读和写性能的需求几乎是50:50的比例。这在一定程度上反映了这些作业的平均值。这里的关键点是,如果你在运行ML,写操作同样至关重要。仅仅关注读是一个误区。这并不是唯一的需求。右侧的图表很好地说明了这一点。如果你有一个主要优化读性能的存储系统,你可能完成的数据量会明显减少,因为正如Jensen在他的主题演讲中所指出的,我们需要频繁地设置检查点。特别是当系统规模扩大时,这变得更为关键,因为故障随时可能发生。显然,你拥有的组件越多,你感受到的故障就越少,回到检查点的时间也就越少。检查点的重要性不言而喻。我们观察到一些客户,通过提供非常快速的存储,我们实际上帮助他们节省了大约10%的计算基础设施成本,因为他们可以更快地设置检查点,并在此过程中明显减少损失的时间,因为系统基本上一直在处理事务,而不仅仅是等待数据分阶段处理。
CJ Newburn(NVIDIA)
我主要关注两大方面:一是如何加速并充分利用现有应用程序的基础平台和系统;二是寻找新的应用模式,解决我们面临的新挑战,并探索推动技术发展的途径。
在加速方面,一个核心问题是如何高效利用具备强大带宽需求的GPU。过去,我们在处理训练任务时主要关注的是带宽。但现在,随着GNN这类新应用的出现,它们对数据有着大量且非常细粒度的访问需求。我们期望能减少数据存储位置的重要性,让数据无论存储在HBM还是NVMe中都能得到高效利用,以优化总体成本。在某些场景下,我们甚至希望数据能够直接输入到GPU中,减少CPU的干预,实现更高效的处理。这带来了新的挑战,例如当处理图形数据时,每个节点和线程都需要读取节点数据来确定下一个节点的位置。由于GPU拥有数量级更多的线程,这使得每个线程都能进行细粒度的数据访问。
在架构方面,当我们与OEM交流时,发现他们在购买系统时往往对性能影响一无所知,比如PCIe的性能以及PCIe交换机的价值。这可能导致显著的性能差异,特别是在使用大量GPU和下一代PCIe树的情况下。因此,探索分布式存储的机会,实现更安全、更易于管理的共同存储方案,以及更好地利用规模经济效益,都是非常重要的。同时,我们也需要支持数据中心中各种不同类型的工作负载,因为不同的工作负载对存储的需求是不同的。
另一个我们正在努力解决的问题是数据管理。要知道数据的名称、位置以及格式,这确实是一项繁琐的任务。如果能够将其抽象化,让开发人员只需简单地请求数据,而由其他人在更高层次上处理这些问题,那将是非常理想的。
关于安全性,请看看这里的图表。我非常关注安全问题。最近,我们听到了攻击医疗系统的事件,这凸显了安全性的重要性。许多客户表示,存储是他们感到脆弱的关键环节之一,因为并非每个部门都能拥有独立的存储,他们往往需要共享存储资源。因此,将计算节点上最不受信任、最易受攻击的部分加速并移动到更安全的地方,如DPU,并实现零拷贝的直接数据传输,就显得尤为重要。RDMA的普及以及DPU在加密等方面的加速功能,都为我们提供了更多的安全保障和机会。在这个领域,有着广阔的应用前景和众多的变化可能性。
Jason Duquette(Dell)
有一件重要的事情我想和大家分享。我从事存储行业已经很久了,相信在座的很多人也是如此。现在我们正处在一个有关AI的新兴市场中。正如我们一开始所提到的,如果没有存储,即便你买了一堆GPU也毫无意义。那么,当我们说拥有高性能的存储时,究竟指的是什么呢?
在谈论存储协议时,我们必须确保我们整个行业都为存储行业的发展做出了正确的决策。我们需要为客户着想,为行业着想,确保在构建存储系统时有统一的标准,无论是基于NFS还是对象接口。同时,当我们开始考虑安全性时,我们需要明确加密和认证的具体含义,消除行业内的语义争论,确保我们不会在这些问题上产生分歧。
在AI领域,我们希望更好地实现KV和元数据的访问。因此,我们需要共同努力,将这些功能整合起来,避免将客户锁定在特定的解决方案中。这在技术行业的新兴领域中已经发生过多次,我们希望在未来能够避免重蹈覆辙。
谈到客户端访问,我认为无论是CPU上的软件运行还是GPU服务器中的DPU运行,我们都应该确保周围的框架尽可能通用。昨天早上,CJ提到了如何将这些存储应用程序更贴近实际应用场景,比如在GPU环境下如何创建一个框架,既能允许有价值的IP增值,又不会将客户锁定在专有接口中。这样,我们才能确保安全性,确保在谈论性能时,我们都在使用同样的标准。
最后,我要强调的是性能。这是一个至关重要的点,特别是当我们谈论检查点时。我同意,目前有些人可能忽视了检查点的重要性。这不仅仅是读的问题,还涉及到写。当模型发生变化并开始访问时,它们会进行元数据访问,就像直接从存储中访问参数一样。我们需要明确这对性能意味着什么。
举个例子,如果你看看现有的基准测试规范,它们刚刚宣布了AI图像相关的内容。但如果你仔细研究这些基准测试本身,你会发现它们有一个检查点部分。那么,你能告诉我哪个GPU有30MB的内存吗?更别说整个系统了,我们前几天都看到了Blackwell将会拥有怎样的性能。我们需要有能够真实反映我们今天所做工作的基准测试,让所有人都有公平竞争的机会,让客户了解我们所做的工作。同时,我们也应该公开这些基准测试,让所有人都能轻松获取,不必再四处询问。只有这样,我们才能确保公平性,确保我们在各个方面都是公平的竞争对手,对客户也是公平的。这样,我们就不会因为误解而停止做真正有意义的工作。
-----
观众
我在媒体和娱乐行业工作多年,始终在努力避免系统崩溃。吞吐量一直是关键指标,而对我们而言,决定性的因素是否会丢帧。在今天这个时代,一旦无法满足系统需求,运行时间就会变得一团糟,几分钟的工作可能变成几周。更糟糕的是,我们现在正步入多模态领域,数据类型可能从简单的PDF到大型视频文件应有尽有。如今,我们不仅要确定使用哪种文件系统,还要考虑采用何种RAID或硬件来补充。这简直就是一个选择矩阵,让决策变得更加困难。现在,我们还要面对非结构化数据和结构化数据的问题。如果正在进行RAG,还可能涉及向量数据库。训练、推理等任务也变得日益复杂。因此,现在的存储系统几乎需要在任何情况下都能完美应对所有任务。在设计存储系统或寻找最佳方案时,我们如何做到面面俱到呢?因为这似乎是一个必要条件。
Jason Duquette(Dell)
我认为这确实没有简单的答案。正如我之前所说,我们正处于一个新兴的市场环境。这周我们进行了一些深入的讨论,探讨如何实际评估这个问题。如何构建一个包含数百个GPU和数百个存储节点,处理PB、EB级数据的系统,并尝试所有可能的组合方式?答案是我们做不到。因此,我认为我们整个行业需要共同努力,无论我们是在讨论不同的多租户场景,比如基于推理、参数化和训练的多租户,还是由混合各领域专家引起的多租户。实际上,我们正在努力确定如何至少缩小选择范围,以便人们能够更容易理解。然后我们会逐步优化和完善。如果你试图一次性涵盖所有方面,那么你永远无法取得任何实质性的进展。我们应该从解决最容易的问题开始,逐步朝着我们的目标迈进。这需要我们每个人的努力,需要整个行业的共同努力。为了解决这个问题,所有的存储技术都将发挥重要作用。
Sven Oehme(DDN)
显然,这是一个非常棘手的问题。我认为存储选择将一直存在多样性,因为每个成功的公司,如果它真的成功,可能在某些方面做得很好。他们通常有一系列针对特定工作负载优化的存储产品,并在这些工作负载中表现出色。我们将继续看到许多不同的存储解决方案。关键的区别在于哪种解决方案能够真正满足客户所需的规模,并且能够处理各种复杂的工作负载,包括读操作、写操作、小IO、大IO、带宽以及延迟任务。此外,还需要考虑提供给最终用户的协议类型。你会看到在这个领域,越来越多的存储产品不再仅仅局限于块存储、文件存储或对象存储。它们提供了越来越多的选择和变种。这只是一个将继续发展的趋势。
Rob Davis(NVIDIA)
你的意思是不是,先审视一下工作负载及其存储需求,再从中挑选出你认为最合适的供应商呢?还有谁要补充的吗?
Colleen Tartow(VAST Data)
你刚才提到了结构化和非结构化数据。这也是我经常思考的点。这两种数据无疑非常普遍,但95%的数据其实都是非结构化的。我们过去一直专注于为那5%的数据构建数据库解决方案。而现在,随着数据规模达到了EB级,我们真的得开始考虑如何获取可扩展的数据仓库解决方案了。我们需要的是真正不分层的数据解决方案,既要能满足AI应用场景,又得符合传统的BI报告需求。就像我之前说的,数据移动得越多,情况就越糟糕。因此,寻找一种既灵活又可扩展的解决方案,能够同时满足这两种需求,就显得尤为重要了。
观众
我认为过去几年我们目睹的最大发展是RAG和推理技术。因此,增加训练数据是必要的,但这些数据需要被向量化,以便能够迅速处理。
Colleen Tartow(VAST Data)
没错。技术发展日新月异,谁又能预知两三年后我们会做些什么呢……
观众
说不定下周就有新变化了。
Pranoop Erasani(NetApp)
我来总结一下这个问题。我认为,我们至少需要Scale-out架构,因为对GPU的需求将持续增长。计算能力也将不断提升。因此,存储系统必须跟上这一步伐。Scale-out是应对这一挑战的最佳方案。
此外,客户在做出决策时通常会考虑多个因素,如价格和性能。现在,有了LLM,性能的特点包括吞吐量、延迟、IOPS等,这涵盖了方方面面。我们必须找到最佳的供应商,能够以最经济的方式处理所有这些需求。
还有,不要忽视数据可移动性这个环节。因为数据不再只存在于一个地方,也不会固定在一个地方。你可能需要购买一个临时系统来快速输入数据并进行训练。在将数据迁移到更合适的系统之前,我们必须全面考虑数据管理和数据移动的各个环节。
总之,这个问题是多维度的,我们不能只从一个角度来考虑。
观众
关于这个问题的后续,数据的流动性和无处不在,延迟成了我们的敌人。有像Hammerspace这样的公司,他们正在加强这方面的工作,通过提前编排,实现单一命名空间。你们对此有何看法?是为了让数据访问变得更简单吗?正如你所说,我们要避免被供应商锁定,能同时使用私有云和公有云,因为我们想要利用全局数据,有时还要将其纳入模型。你们认为解决这一问题的方案是什么?
Jason Duquette(Dell)
我认为过去几年我们吸取了宝贵的教训。在云计算领域,我们又看到了一个新的市场兴起。我们看到客户纷纷将数据和计算迁移到云端,然后发现他们被锁定在一个昂贵的解决方案中,且难以摆脱。
下云确实会花费大量资金。我们希望避免重蹈几年前的覆辙。云计算有它的用处,我并非说它不好,但它不是万能的解决方案。我们需要从前人的经验中吸取教训,持续改进。但我赞同你的观点。Hammerspace就是一个很好的例子,它带来了加法效应。不仅我们能成功,不仅VAST能成功,市场如此之大,如此新兴,有足够的空间让每个人做真正有意义的工作。
Sven Oehme(DDN)
我认为还有一点至关重要,那就是网络功能越来越多地被整合到存储本身。从我们的EXAScaler产品中就能看出这一点,它具备称为LNET路由的功能,可以在不同类型的网络间进行路由,因为这也是一个问题所在。回顾过去,许多高性能计算系统的端口都是InfiniBand,但看看AI领域,情况就有所不同了,不是吗?但在某个时刻,某些东西会融合,人们希望从一个IO访问到另一个IO的数据,能够在不同的网络结构和技术间转换流量将是一个持续的趋势。这还涉及更多内容。一些数据集可能位于远程,甚至可能存储在云端。如果你只连接到一个RDMA网络,从某个远程的S3系统获取数据就会很困难。因此,这些路由能力将成为存储产品的一个核心组成部分。我认为这个领域将出现越来越多的趋势。
Colleen Tartow(VAST Data)
我们需要在实际移动数据和仅拥有一个可以在云端、本地或边缘访问的单一命名空间之间找到平衡。因为我们所有人都处于混合环境中,每个人都需要这种灵活性。
CJ Newburn(NVIDIA)
由于我们谈到了存储和网络,我在计算这一三角形的第三个顶点上,做一些补充。
我认为,看待这个问题的另一种方式,就是顺着技术栈向上看,并思考谁拥有更多关于数据访问的上下文信息,以便做出一个与供应商无关的判断。你们中的许多人正在探索各种不同的方法、形式和系统调优方式,而在一个特定的系统中,你们可能需要同时使用多种方法。
那么,现在你们如何决定并找出要采用哪一种方法呢?是让应用程序来决定,还是让开发人员来决定?这真的很难。很多人并不希望这样做。但是,如果你们能够关注他们正在做的事情的上下文,并让中间的基础设施或框架拥有更大的感知能力,基于谁调用了我以及出于什么目的,那么我就可以做一些看似是交换读写操作的事情,因为我将进行读写操作。我是否在流式传输某些东西,使得CPU知道将要发生的一切,并可以提前轻松地进行协调?是否是GPU在进行大量细粒度访问?所有这些都是正在发生的访问操作,如果你们愿意的话,可以在计算空间中使用不同的API,让程序员自然地表达他们想要做的事情。这需要将我们想要解决的问题映射到底层技术,这为存储空间的合作伙伴关系提供了一个巨大的机会。
Sven Oehme(DDN)
这就是为什么我认为大家将会看到一个趋势,那就是不仅提供原始协议,还提供对存储系统的库访问,这将彻底改变这个领域的一切,因为存储部分实际上成为了应用程序的一部分。这是真正将信息带到应用程序附近和数据附近的方法。
CJ Newburn(NVIDIA)
我们希望与大家合作创建这些开放式API。如果我们与所有人讨论这个问题,并且大家参与这些机会,找到我们可以插入的地方。随着我们添加新的不同的编程范式,创建那个每个厂商都可以参与的共同基础设施,对于NVIDIA来说非常重要。
Colleen Tartow(VAST Data)
我认为这对于审计也非常重要,就像把数据作为产品的想法一样。这就是你进入数据管理解决方案的领域,比如数据网格和数据网络,最终你会拥有数据产品,最大限度地利用存储和计算产生对下游用户最有价值的产品。
观众
我有两个问题。首先,我们听说存储层级已经消失了,不再有层级之分。我很希望能听到更多关于这方面的见解。另一个问题是在昨天的演讲中,Jensen提到我们现在不再只是检索数据,而是更多地生成数据。这听起来像是对我们的存储架构产生了深远影响。我很期待听到各位专家的看法。
Jason Duquette(Dell)
我来分享一下对层级的看法。Colleen的观点可能稍微激进了一些。但从用户和应用层面来看,我们作为存储供应商和解决方案公司,不应该让用户考虑层级问题。想想看,作为软件开发者,你上一次关心自己的处理器在哪一层工作是什么时候?你是否会担心数据是在L1、L2、L3缓存还是DRAM中?通常不会。这对你们来说是透明的,无需关心。
或许从客户的角度来看,层级就像个黑盒子,对他们来说有点模糊。我认为层级仍然有很多潜力,我在存储行业见证了层级概念的多次起伏,这与串行与并行的趋势相似。这种情况总是反复出现,像是一个循环。层级仍有其价值,但确实增加了一些复杂性。所以,我同意Colleen的观点,目前来说,考虑层级的复杂性可能过高,但我不认为这完全是个死胡同。
Sven Oehme(DDN)
我想补充一点。每个存储系统,从本质上讲,都存在一定的层级。关键在于你如何定义层级。比如,数据进入内存,然后会进入SCM,然后转到QLC,这本身就是一种层级。
因此,真正的问题是:这些层级中哪些能为客户带来价值?它们的成本和性能如何?对于你的特定应用来说,这些层级是否发挥了积极作用?如果答案是否定的,那你可能会寻找成本更低的层级。如果它们确实带来了好处,那你可能不会过分追求多层级。简单来说,这就是我认为的答案。
Pranoop Erasani(NetApp)
关于这个问题,我想说的是,这完全取决于你处于AI/ML的哪个阶段。训练调整是为了追求更高的性能。在数据生命周期中,我们总是希望获得最佳性能。如果数据的重要性相对较低,你可能会考虑实施分层存储以节省成本。所以,我并不认为这是一种负担。关键在于你从哪个阶段来看待数据生命周期。
Colleen Tartow(VAST Data)
这里有很多有趣的观点。我认为,某些类型的分层存储已经成熟,而某些类型则还在发展中。我要修改一下我之前的说法,VAST的用户其实不需要关心数据是存储在QLC还是SCM中,这不是他们应该关心的重点。我过去是一名数据工程师,经常需要将数据放到“冰川”中,因为维持它们的成本太高,与S3相比也是如此。这种分层存储曾是一个管理难题和成本问题。但现在我们有了全闪存,这个问题已经不复存在。如果我们能够进一步降低成本,并在性能和可扩展性方面实现成本效益,那么分层存储就不再是一个问题。简单来说,有些数据你今天需要,有些数据你明天可能就不需要,所以关键是要明确最终用户的需求,并优先满足他们。
CJ Newburn(NVIDIA)
我非常赞同Jensen的观点,他的言论常常富有深意,可以从多个角度解读。我想补充的是,检索与生成的论点不仅过于简化,而且...以孩子为例,当你3岁的孩子问你拿东西时,你通常会直接告诉他。但当你18岁的女儿问你问题时,她会深思熟虑,考虑很多方面。看到她思考的过程是一种享受,因为她不仅仅是在检索信息,更是在生成新的想法。
我们现在看到的情况是,过去简单的工作负载已经演变成了复杂的工作流程。作为存储领域的社区,我们面临的挑战之一是,我们甚至不知道数据在哪里。你谈到的,数据会存在于不同的“热度”层次上,而不仅仅是传统的层级。这可能会让很多人困惑,数据到底在哪里?谁负责管理它?特别是,我认为我们面临的一个未解之题是,这与存储有什么关系?对于像Arrow这样的存储解决方案,我们需要什么样的存储?又该如何应对这些挑战?我期待在这个领域看到更多的发展,因为我们正进入数据生成和复杂工作流程的新时代。
Rob Davis(NVIDIA)
我认为“生成”这个词已经很好地说明了问题。它意味着创造,意味着产生某种东西,那就是数据。
观众
我有两个问题。首先,GPU现在正逐渐成为各种处理任务的核心,特别是在AI这类工作负载中。在数据进出GPU的接口方面,有直接连接的方式,比如GPUDirect,它允许主机CPU内存与GPU直接通信。我想知道在代理和带宽方面有哪些限制,以及你认为未来的互连技术会如何发展?你是否设想过NVLink可能会用于存储连接?或者CXL技术?第二个问题是关于多次提到的检查点。我想知道更频繁的检查点存在的瓶颈是什么?是存储方面的问题,还是框架方面的问题?是什么阻止了更频繁的检查点设置?
CJ Newburn(NVIDIA)
我们观察到的一个现象是,过去的一个月里,我和这里的许多人以及会场的其他人都在思考是否能创造奇迹。我认为,从介质的最低层次中,我们追求的关键之一实际上是更多的并发性。但要实现这一点,唯一的办法就是使用更多的介质芯片。关于NVLink连接到其他设备的想法,我认为在经济上可能并不划算。因为NVLink具有巨大的带宽,连接到任何给定的SSD或大量SSD都会非常昂贵。直接将链接连接到设备上,我不知道如何从中获得经济上的效益。但是,如果能够从计算复杂系统的任何位置进行节点反转,例如,将请求转发到另一个GPU,这个GPU能够解析并实际执行所有请求和打包,然后再与可能是其CPU或具有大量PCIe通道的其他设备通信,这样就可以直接访问所有介质,并对其进行汇总。这种设想可能更有趣。我期待你们中的任何人能够展示如何实现这一技术,如何从相对较小的一组介质芯片集合中获得如此巨大的带宽。
Jason Duquette(Dell)
我想补充一点,当Jensen谈到Blackwell时,我实际上对他的主题演讲中没有提及Blackwell的解压缩功能感到惊讶。这一点并没有真正被提到。如果有解压缩功能,那么谁来做压缩呢?对于那些实际上是存储客户的人来说,这可能是一个重要的问题。谁相信我们在谈论数据减少率时能够实际达到理想的效果?似乎没有人。这确实是我们将要讨论的话题。如果我们能够压缩数据,发送更少的数据,那么我们就不需要更宽的管道。我们只需要智能地选择要发送的数据,无论是通过压缩,还是在DGX系统内部采用某种级别的优化。如果我们通过PCIe、NVLink或其他任何方式进行多播广播,这也将是一个需要考虑的问题。但我们需要讨论的是,如果我们正在做解压缩,那么使用的算法是什么?这实际上意味着什么?对于我们今天使用的数据来说,这意味着什么?对于新兴市场来说,这是否会成为一个真实可行的方案?我认为答案可能因情况而异。我不知道NVLink或CXL是否能为你提供直接的答案。但我认为我们可以尝试一些有趣的方法。特别是在竞争激烈的市场中,我们可能会看到各种尝试和不同的解决方案。
Pranoop Erasani(NetApp)
谈到内部检查点,目前最简单的方式就是通过带宽最高的存储。但我们也看到了减少检查点数据的可能性,这确实需要付出很大努力,因为检查点数据会持续增长,不能一直这样下去。我们正在进行相关研究,试图找出减少数据量的方法。但无论最终生成多少数据,带宽始终是关键,以满足检查点的需求。
CJ Newburn(NVIDIA)
这个问题让我有些困扰。我们曾经向很多存储供应商提问,他们都说自己对于像LLM这样的检查点有绝佳的解决方案。但我们的分析显示,从每个GPU的角度来看,实际需求与网络或PCIe速率相比其实并不接近。它的速度高出许多,且不会成为关键路径的瓶颈。因此,我认为这确实是个问题。我很期待听到你们的案例分享,因为你们似乎也有一些实际经验。从历史上看,这在HPC案例中尤为明显,那时我不得不暂停模拟来处理大量数据。不过,对于许多LLM应用来说,情况可能没那么糟糕。我一直在寻找GPUDirect存储在这方面的应用,但目前还没有找到合适的方法。
Colleen Tartow(VAST Data)
我同意CJ的看法。我们的客户通过并行性模式发现,最终所需的检查点数据量其实非常适合我们现有的带宽。除此之外,选择合适的检查点位置、时机和频率更像是一门艺术。很多时候这都需要通过实验来确定,具体取决于你的系统配置。
Pranoop Erasani(NetApp)
我完全同意大家的观点,我们不认为这是一个大问题。但也许Colleen还在寻找更具体的答案。如果有一天这真的成为问题,那么存储中会有一个靠近DGX服务器的层,我们可以观察写入情况并在后台进行刷新。
Sven Oehme(DDN)
我认为这个问题在处理超大规模数据时尤为突出。如果你只是在小型系统上操作,那么这可能并不是一个大问题。但如果你构建的系统拥有成千上万的GPU,甚至接近10万个或更多,这正是我们面临的挑战。在这种情况下,良好的检查点功能至关重要。
观众
我在军队工作,我们为客户提供数字化转型服务。假设你是某个小律师事务所或军队中数据量很大的小团体的首位数据官,刚刚涉足AI领域。作为首任数据官,你会推荐哪三或四个标准、文件或政策,以最大限度地利用数据来应对业务问题?
Jason Duquette(Dell)
如果你为军队、联邦政府或者任何关键基础设施工作,首先,你应该遵循所有关于安全性的标准。这是首要的,也是最重要的。如果你无法保障数据的安全,最终每个人都会为此付出代价。你可能会因为一个小小的失误而摧毁一个与整个卫生保健系统相连的小型卫生保健提供商,进而影响到整个系统。所以,我认为安全性和最佳实践是首要且重要的。现在有很多标准,同时也在不断出现新的标准。如果你负责这些数据,最好将其保护好。
Colleen Tartow(VAST Data)
我们的很多客户也在这么做。上周我参加了数据和分析会议,大家都在讨论每个首席数据官都被告知要涉足AI领域。但我认为关键是要找到合适的应用场景,安全性绝对是第一位的,特别是如果你掌握着重要的数据。但除此之外,我认为你还需要非常明确地确定哪些应用场景是可行的,并了解成功应该是什么样子。因为仅仅做AI并不是目的,我们要的是实际的效果。
Pranoop Erasani(NetApp)
实际上,关于这些标准,目前还没有非常明确的规定。在AI领域,安全性不仅关注数据本身,还关注整个AI数据生命周期,包括保护你的模型、模型的输入以及RAG分析等内容。所有传统的安全手段都将适用于这里。虽然可能会出现新的标准,但我们必须回归到问题的本质,那就是授权、认证、隐私和加密。这些都是确保AI安全的关键要素。
---【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/关注领域)